Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源

浏览:1461次阅读
没有评论

近期,AI 领域正盛极一时,各类创新工具如雨后春笋般涌现出来,震撼与担忧齐头并进。今日,我将向各位介绍一款能够大幅提升工作效率的优秀 AI 工具——Buzz。

Buzz 概述

Buzz 作为一款智能的语音转文本字幕工具,利用 OpenAI 开源的 Whisper 基础语音识别模型,将音频或视频素材快速地自动化转化为包含精确时间戳的字幕,其中所展现的效率优势显著,堪称是生产过程中提高效率的得力助手。

github 项目地址【 点击前往

Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源插图

关于 Whisper

Whisper 是 Open AI 于 2022 年 9 月 21 日正式公开发布 Whisper 神经网络,声称其英文语音识别精度已达到人类水平,且同时支持 98 种其他语言的自动语音识别功能。

Whisper 系统提供的自动语音识别(Automatic Speech Recognition,ASR)模型是经过精心优化和训练,以执行语音识别和翻译任务,能够将各种语言的语音转换为文本形式,并将这些文本翻译成英文。

Whisper 是一种高度可扩展的语音识别模型。它使用多个大规模数据集进行训练,是一种多任务模型,能运行多语言语音识别、语音翻译和自然语言理解等多项任务。

Buzz 转录特点

  • 精准无误 :Buzz 深度融合了 OpenAI 开源的 Whisper 语音识别模型,从而具备极高准确性的语音转录效果。
  • 快速便捷 Buzz 会把 AI 模型下载到本地,下载完成后所有的语音转录文字过程都在自己的电脑运行,转换速度很快。
  • 兼容性卓越 :Buzz 在 Windows、macOS 以及 Linux 三大主流操作系统上均表现出色,均有完美支持。
  • 多语言支持 :除了支持中文之外,仍支持众多国家及地区的语言;除此之外,Buzz 还内置翻译功能,尽管仅能将译文转为英文而已。

Buzz 下载安装

接下来介绍 Buzz 的安装,在此之前一样要安装 ffmpeg,复制 ffmpeg 的 bin 文件夹路径。然后进入“高级系统设置”选择“环境变量”,选择“Path”点击新建,然后把 ffmpeg 的 bin 文件夹路径添加进去。

Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源插图1

然后去 Buzz 开源地址下载对应系统版本的安装包,下载地址【 点击前往 】,下载完成后直接安装即可。

Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源插图2

打开 Buzz 的界面非常简单,话筒图标是直接调用录音软件录音转换字幕。+ 按钮则是选择语音或视频文件进行转换。

Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源插图3

软件选项也很简单选择对应的语言和选择的模型进行转换即可,初次使用需要从网上下载模型到本地。如果有 OpenAI 的 API key,填入后可以获得更好的转录效果,API key 购买【 点击前往

Buzz - 基于OpenAI Whisper语音识别模型研发的声音转文本技术,简单好用且免费开源插图4

转换速度取决于你使用的模型和硬件情况,效果和 whisper 一致。然后选择语言(也可以使用默认的自动识别),就会自动转录,等进度为 100% 后,双击就会看到识别的内容,支持将结果导出为 TXT 格式的纯文本或者是通用的 SRT 字幕文件,非常方便。

正文完
 0
评论(没有评论)
验证码